打开APP

西湖大学郭天南:颠覆传统实验,推动AI虚拟细胞的三大数据支柱与闭环学习

来源:生物世界 2025-03-30 10:38

该文章提出,人工智能虚拟细胞(AIVC)的演进和发展依赖于三个关键的数据支柱——先验知识、静态架构和动态状态。

细胞是生命的基本单位,对于理解健康、衰老和疾病至关重要,也是药物开发和合成生物学的重要工具。然而,基于细胞的实验资源消耗大且易变,这导致了生物医学研究中的可重复性问题。

虽然首个碳基细胞是经过数十亿年的进化才出现的,但首个硅基细胞的开发如今为科学界带来了变革性的机遇。大约在 2000 年提出了虚拟细胞(virtual cell)或数字细胞(digital cell)的概念,最初依赖传统的低通量生化实验来量化特定生物过程中所涉及物质的时空变化。这些早期模型采用微分方程和随机模拟来模拟特定的细胞过程。开创性的全细胞虚拟模型,例如针对支原体、大肠杆菌和酿酒酵母的模型,主要基于先验知识。然而,它们缺乏精心设计的匹配扰动组学数据和时空成像数据。尽管这些早期模型具有开创性意义,但它们在全面捕捉活细胞的动态特性和复杂性方面存在局限性,这凸显了对更全面的数据整合和先进建模方法的需求。

高通量技术和人工智能(AI)的最新进展为更复杂的虚拟细胞模拟铺平了道路。

2024 年 12 月,斯坦福大学 Stephen Quake 教授等人在 Cell 期刊发文,提出了人工智能虚拟细胞(AIVC)的概念【1】,该概念将人工智能与多模态数据相结合,以创建细胞功能的综合计算模型。这些人工智能虚拟细胞有望实现精确且可扩展的计算机模拟实验,有可能通过高通量模拟在某些情况下补充甚至取代传统实验,从而彻底改变生物医学研究。 

尽管人工智能虚拟细胞(AIVC)前景广阔,但仍有一些关键问题悬而未决。正如细胞培养基滋养生物细胞一样,什么样的“培养基”才是培育这些数字实体的理想之选?我们应当优先对哪些细胞类型进行虚拟培养?

解决这些问题对于充分发挥人工智能虚拟细胞(AIVC)在药物开发、疾病建模和基础生物学研究中的潜力至关重要。在我们即将迈入细胞建模这一新时代之际,科学界应当携手合作,为人工智能虚拟细胞(AIVC)的开发和验证制定标准及最佳实践。

2025 年 3 月 25 日,西湖大学郭天南研究员在 Cell Research 期刊发表了题为:Grow AI virtual cells: three data pillars and closed-loop learning 的社论。

该文章提出,人工智能虚拟细胞(AIVC)的演进和发展依赖于三个关键的数据支柱——先验知识(priori knowledge)、静态架构(static architecture)和动态状态(dynamic states),这些数据支柱与深度学习算法(deep learning algorithms)相结合,构成了 AIVC 发展的基础。

图片

图片

此示意图展示了发展 AIVC 的三大关键支柱:先验知识、静态架构和动态状态。这些数据通过人工智能算法进行整合,以模拟细胞行为(例如大肠杆菌、酵母和各种细胞系等模式生物的模型),还展示了使用闭环主动学习系统的 AIVC 的发展演变。在这个先进的框架中,计算预测引导自动化实验,尤其侧重于扰动组学。

想象一下,在计算机中培育一个“虚拟细胞”,它能模拟真实细胞的生长、代谢甚至癌变过程,帮助科学家预测药物效果、解析疾病机制。这个看似科幻的场景随着人工智能(AI)的发展,正在变为现实。

传统细胞实验的困境:成本与不确定性的双重挑战

细胞是生命的基本单位,但传统实验面临两大难题:

资源消耗大:单次实验需数周时间,且需要昂贵的试剂和精密仪器;

可重复性低:实验受环境波动、操作差异影响,全球科研界正面临“可重复性危机”。

AI虚拟细胞:迈向硅基生命之路

从 2000 年首个“虚拟细胞/数字细胞”概念到如今的人工智能虚拟细胞(AIVC),郭天南团队提出了构建细胞“数字孪生”的三大核心支柱:

1、先验知识:海量文献的“智能熔炉”

整合百年生物医学研究成果,包括 2.4 亿篇论文,以及 3D 分子结构数据库,这些人类已有的知识如同“细胞百科全书”,为 AI 提供基础细胞生物学规律,就像 ChatGPT 学习了人类的所有文本,让 AIVC 吸收所有细胞知识。

2、静态架构:纳米级细胞“全景地图”

融合冷冻电镜、超分辨显微镜、空间组学技术,绘制细胞器、蛋白网络的精确三维结构,分辨率达 5-10 纳米。

3、动态状态:捕捉生命的每一帧变化

追踪细胞发育、癌变等过程的分子动态;利用扰动技术(例如基因编辑、药物刺激)生成大量数据,训练 AI 预测细胞行为。

技术突破:当多组学遇上深度学习

郭天南团队进一步提出了“闭环学习”框架:

1、数据融合:Transformer 模型整合文本、影像、蛋白质组数据;

2、动态推演:Diffusion 模型模拟细胞状态变迁,预测药物干预效果;

3、自我进化:每次虚拟实验结果反哺模型优化,形成迭代升级。

未来应用:从精准医疗到合成生物学

1、药物开发:虚拟筛选抗癌药组合,缩短研发周期;

2、疾病解密:模拟阿尔茨海默病蛋白异常聚集过程;

3、细胞工厂:设计高效生产胰岛素的人工细胞。

结论与展望

在现代生物医学研究的数字培养皿中创建和培育人工智能虚拟细胞(AIVC)时,我们必须仔细考虑滋养其生长的“养分”。文章中提出的先验知识、静态架构和动态状态这三大数据支柱构成了这些计算机模拟实体的必要“培养基”。其中,基于扰动的组学数据——转录组学、蛋白质组学和代谢组学——成为关键的“生长因子”。

为了高效生成如此丰富的扰动数据,作者设想了闭环主动学习系统将成为下一个进化步骤。这些系统受自主化学实验室的启发,将无缝整合人工智能驱动的预测与机器人实验。就像一位技艺娴熟的园丁,它们将识别知识空白,设计有针对性的实验,并不断深化我们对细胞复杂性的理解。从静态模型到适应性、自我优化的人工智能虚拟细胞的旅程,有望彻底改变药物发现、疾病建模和基础生物学研究。作者还提出了这一旅程中的低垂果实——创建并培育一个虚拟酵母细胞或许是一个可行的选择。

当我们站在这一令人兴奋的前沿之际,科学界的协同努力对于充分发挥人工智能虚拟细胞的潜力以及推动计算机模拟生命科学的未来至关重要。

版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用生物谷APP 随时阅读、评论、分享交流 请扫描二维码下载->